强化学习方法小结
花了一天时间大致了解了强化学习一些经典算法,总结成如下笔记。笔记中出现不少流程图,不是我自己画的都标了出处。 铺垫 1. Bellman方程 在介绍强化学习算法之前先介绍一个比较重要的 ...
花了一天时间大致了解了强化学习一些经典算法,总结成如下笔记。笔记中出现不少流程图,不是我自己画的都标了出处。 铺垫 1. Bellman方程 在介绍强化学习算法之前先介绍一个比较重要的 ...
Policy Gradient Methods 之前学过的强化学习几乎都是所谓的‘行动-价值’方法,也就是说这些方法先是学习每个行动在特定状态下的价值,之后在每个状态,根据当每个动作的估计价值进行选 ...